\pdfminorversion 7
\pdfobjcompresslevel 3

\PassOptionsToPackage{table}{xcolor}
\documentclass[10pt,a4paper]{article}
%\documentclass[10pt,oneside,noprintercorrection]{article}
\special{papersize=210mm,297mm}


\usepackage[absolute]{textpos} 
\usepackage{pdfpages}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{cite}
\usepackage[francais]{babel}
\usepackage[bookmarks=false,colorlinks,linkcolor=blue]{hyperref}
\usepackage[top=3cm,bottom=2cm,left=2cm,right=2cm]{geometry}
\usepackage{graphicx}
\usepackage{wrapfig}
\usepackage{subfig}
\usepackage{eso-pic}
\usepackage{array}
\usepackage{listings}
\usepackage{color}
\usepackage[table]{xcolor}
\usepackage{url}
\usepackage{eurosym}
\usepackage{url}
\usepackage{textcomp}
\usepackage{fancyhdr} 
\usepackage{amsmath}
\usepackage{pict2e}
\usepackage{listings}
\usepackage{setspace}
\usepackage{float}
\usepackage[ruled,vlined,linesnumbered]{algorithm2e}
\usepackage[toc,page]{appendix} 
\onehalfspacing
\lstset{escapeinside={<@}{@>}}
\definecolor{lightgray}{gray}{0.9}

\title{Rapport de Projet Individuel, Master Informatique 1\up{ère} Année}
\author{Jérémy \textsc{FONTAINE}}
\author{Mathias \textsc{OUDIN}}


\newcommand{\HRule}{\rule{\linewidth}{0.5mm}}


\definecolor{mygreen}{rgb}{0,0.6,0}
\definecolor{myred}{rgb}{0.5,0,0}
\definecolor{mygray}{rgb}{0.5,0.5,0.5}
\definecolor{mymauve}{rgb}{0.58,0,0.82}
\definecolor{myyellow}{rgb}{0.1,0.5,0}

\renewcommand{\appendixtocname}{Annexe} 

\begin{document}


\input{./title.tex}



%%%% debut macro %%%%
\newenvironment{vcenterpage}
{\vspace*{\fill}}
{\vspace*{\fill}\par\pagebreak}
%%%% fin macro %%%%


\newpage
\begin{vcenterpage}
\section*{Remerciements}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%% REMERCIEMENTS%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Nous remercions avant tout notre encadrant Samuel BLANQUART pour le temps qu'il
 a pu prendre pour suivre notre travail, répondre à nos nombreuses questions et surtout pour sa pédagogie.
Tout particulièrement, nous 
remercions Laurent NOÉ qui a suivi le travail effectué pendant le projet et apporté son aide notamment pour la deuxième partie du projet. Et enfin nous remercions Pierre PERICARD qui a donné des conseils vis à vis des outils \em{bio-perl}\footnote{Module du langage Perl pour la manipulation de données biologiques}.
\end{vcenterpage}


\newpage
\tableofcontents
\newpage
\listoffigures

\newpage
\section{Introduction}
\vspace{10em}
Nous avons effectué ce projet dans le cadre de notre première année de Master en 
Informatique lors du second semestre avec l'équipe BONSAI du LIFL. Le sujet du projet a été proposé par Laurent NOÉ et nous avons été sous l'encadrement de Samuel BLANQUART, responsable informatique pour le sujet choisi mais aussi de Pierre PERICARD doctorant de l'équipe.  
\\

Notre choix pour ce projet se justifie par nos goûts pour la bio-informatique et surtout pour l'algorithmique.
Nous avons acquis de celui-ci une connaissance approfondie dans le domaine de la bio-informatique, de meilleurs compétences pour la classification 
de données et nous avons aussi appris de nouvelles méthodes d'apprentissage statistique.
\\

Le but du projet était d'assigner un nom d'espèce, de genre, ... à des espèces inconnues se trouvant dans des échantillons environnementaux dans le but de classifier les données méta-génomiques. Ce que l'on a fait par le biais de la signature génétique de ces séquences, en utilisant les bases de fréquences en K-mer des espèces connues et celles qui sont alors encore inconnues.
\\

La première partie du rapport aura pour but de présenter la problématique du projet, puis le travail réalisé à savoir la construction d'une base de données génomiques, le comptage des K-mer pour chaque génomes, l'apprentissage statistique via WEKA, et enfin la validation des données et du classifieur proposé.

\newpage
\section{Présentation du projet}

\subsection{Contexte biologique}

\input{./contexte.tex}

\newpage
\subsection{Base de données de la taxonomie}
\input{./ncbi.tex}

\subsection{Problèmatique}
\input{./problematique.tex}

\newpage
\section{Travail réalisé}

\subsection{Construction de la base de donnée}
\subsubsection{Récupération des données du NCBI}\label{requetesection}
\input{./qweryNCBI.tex}

\subsubsection{Construction de la base de donnée locale}\label{contruc}
\input{./generate.tex}

\subsubsection{Gestion des données}\label{generate}
\input{./extract.tex}
\input{./extract2.tex}

\newpage
\subsection{Apprentissage et Classification}\label{partie_classi}
\input{./comptage0.tex}
\subsubsection{Comptage des K-mots}
\input{./comptage.tex}

\subsubsection{Apprentissage statistique}
\input{./weka.tex}

\newpage
\subsection{Applications}

\subsubsection{Validation croisée}\label{inconnu}
\input{./validation.tex}
\subsubsection{Résulats}
\input{./resultat.tex}




\newpage
\section{Conclusion}
\input{./conclusion.tex}
\newpage
\begin{appendix}

\section{Exemple d'une entrée genbank}\label{ex_Entree_Genbank}
\begin{verbatim}
LOCUS       HG475399                1548 bp    DNA     linear   PLN 08-APR-2014
DEFINITION  Paris japonica chloroplast matK gene for maturase K, isolate
            K1981518.
ACCESSION   HG475399
VERSION     HG475399.1  GI:566553706
KEYWORDS    .
SOURCE      chloroplast Paris japonica
  ORGANISM  Paris japonica
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; Liliopsida; Liliales; Melanthiaceae;
            Paris.
REFERENCE   1
  AUTHORS   Pellicer,J., Kelly,L.J., Leitch,I.J., Zomlefer,W.B. and Fay,M.F.
  TITLE     A universe of dwarfs and giants: genome size and chromosome
            evolution in the monocot family Melanthiaceae
  JOURNAL   New Phytol. 201 (4), 1484-1497 (2014)
   PUBMED   24299166
REFERENCE   2  (bases 1 to 1548)
  AUTHORS   Pellicer,J.
  TITLE     Direct Submission
  JOURNAL   Submitted (22-AUG-2013) Jodrell Laboratory, Royal Botanic Gardens,
            Kew, Richmond, Surrey, TW9 3AB, UNITED KINGDOM
FEATURES             Location/Qualifiers
     source          1..1548
                     /organism="Paris japonica"
                     /organelle="plastid:chloroplast"
                     /mol_type="genomic DNA"
                     /isolate="K1981518"
                     /db_xref="taxon:374963"
     gene            1..1548
                     /gene="matK"
     CDS             1..1548
                     /gene="matK"
                     /codon_start=1
                     /transl_table=11
                     /product="maturase K"
                     /protein_id="CDH93558.1"
                     /db_xref="GI:566553707"
                     /db_xref="UniProtKB/TrEMBL:V6AQ64"
                     /translation="MEELQGYLEKDGSRQQNFLYPLIFQEYIYTLAHDHGLNSSIFYE
                     PMEIVGLGYDNKSSSVLVKRLITRMYQQNSLIYSMNDFNQNRFVGHNNSFYSNFYSQM
                     VSEGFAVIVEIPFSLRLVPSSEKIPKSQNLRSIHSIFPFLEDKLSHLNYVLDILIPYP
                     IHLEILVKILQCWIQDVPSLHFLRFFLHEFHNWNNFITPTKSISVFSKENKRLFRILY
                     NSYVSEYEFVFVFLRKQSYYLRSTSSGAFLERTHFYVKIEHLIDVCHNHFQKILWFFK
                     DSFMHYVRYKGKAILGSRGTYLLIKKWKCYLVNFWQYHFYFWSKPYRIHINPFSNYSF
                     YFLGYIXSVLINPSAVKNQMLANFYLVDTLTQKFDTIVPVIPLIGSLSKAKFCTILGH
                     PISKPIWAELSDSDIIDRFGRICRNLSHYHSGSSKKQSLYRIKYILRLSCARTLARKH
                     KSTVRNLLQRLGSGLLEEFFTEEEQVISPIFPKTTLFPLHGSHRERIWYLDIIRINDL
                     ANYLDWS"
ORIGIN      
        1 atggaagaat tacaaggata tttagaaaaa gatggatctc ggcaacaaaa cttcctatat
       61 ccgcttatat ttcaagagta tatttacaca cttgctcatg atcatgggtt aaatagttcg
      121 attttttacg aacccatgga aattgtgggt ttaggttatg acaataaatc cagttccgta
      181 cttgtgaaac gtttaattac tcgaatgtat caacagaatt cattgattta ttcaatgaat
      241 gactttaacc aaaatcgatt cgttgggcat aacaattctt tttattcgaa tttttattct
      301 caaatggtat cagaaggttt tgcagtcatt gtggaaattc cattctcgct tcgattagta
      361 ccttcctccg aaaaaatacc caaatctcag aatttacgat ctattcattc aatatttccc
      421 tttctagagg acaaattgtc gcatttaaat tatgtcttag atatactaat accctatcct
      481 attcatctag aaatcttagt gaaaatcctt caatgctgga tccaagatgt tccctctttg
      541 cattttttgc gattctttct ccatgaattt cataattgga ataattttat tactccgact
      601 aaatctattt ccgttttttc aaaagaaaat aaaagactat tccggatcct gtataattct
      661 tatgtatctg aatatgaatt tgtattcgtt tttcttcgta aacaatccta ttatttacga
      721 tcaacatctt ccggagcctt tcttgaacga acacatttct atgtaaaaat agaacatctt
      781 atagatgtgt gtcataatca ttttcagaaa atcctatggt tcttcaaaga ttctttcatg
      841 cattatgttc gatataaagg aaaagctatt ctgggttcca gggggactta tcttctgata
      901 aagaaatgga aatgttacct tgtaaatttc tggcaatatc atttttactt ttggtctaaa
      961 ccatacagga tccatataaa tccattctca aactattcct tctattttct gggttatatt
     1021 ycaagtgtac taataaatcc ttcggcggta aagaatcaaa tgctagcaaa tttttatcta
     1081 gtggatactc tgactcaaaa attcgatacc atagtcccgg ttattcctct tattggatcg
     1141 ttgtctaaag ctaaattttg tactatattg gggcatccta ttagtaagcc gatctgggcc
     1201 gagttatcag attctgatat tattgatcga tttggtcgga tatgtagaaa tctttctcat
     1261 tatcacagtg gatcttcaaa aaaacaaagt ttgtatcgaa taaaatatat acttcgactt
     1321 tcgtgtgcta gaactttggc tcgtaaacat aaaagtacgg tacgcaatct tttgcaaaga
     1381 ttaggttcgg gattgttaga agaattcttt acggaagaag aacaagttat ttccccgatc
     1441 ttcccaaaaa caaccctttt tcctttacat ggatcgcata gagaacgtat ttggtatttg
     1501 gacattatcc gtatcaatga cttggccaat tatttagatt ggtcatga
//
\end{verbatim}


\newpage
\section{Cas complexes}\label{ex_Cas_Complexe}
\begin{itemize}
  \item[\textopenbullet ]x...y : la séquence correspondante à la protéine se situe entre les positions x et y.
  \item[\textopenbullet ]<x...y : idem, le chevron en début de ligne indique que la partie codante se trouve sur la première partie de la séquence (le brin 5').
  \item[\textopenbullet ]x...y>: ici la partie codante se trouve sur le second brin (le brin 3')
  \item[\textopenbullet ]complement(x...y): on prend la séquence entre les positions y et x (à l'envers), et on écrit le complémentaire de chaque lettre (a $\leftrightarrow$  t, c $\leftrightarrow$ g)
  \item[\textopenbullet]join(x...y,m...n) : la séquence correspond à la séquence entre positions x et y concaténée à celle se trouvant entre les positions m et n.
\end{itemize}
~\\

On peut avoir des structures plus complexes telle que : join(complement(join(x...y,m...,),a...b).

\newpage
\section{Arbre newick à partir des eucaryotes}\label{ex_Arbre_Newick}
\includepdf[pages={1}]{../imports/tree.pdf}
\end{appendix}
\addcontentsline{toc}{section}{\protect\numberline{}Bibliographie}
\bibliographystyle{plain}
\bibliography{./biblio}


\end{document}
